Meta发布通用图像分割SAM模型:计算机视觉领域的“GPT-3时刻”到来?| 「共同虚拟」案例库
近日,Meta发布AI图像分割模型Segment Anything Model,该模型将自然语言处理领域的prompt范式引入计算机视觉领域,可以通过点击、框选和自动识别三种交互方式,实现精准的图像分割,突破性地提升了图像分割的效率。
点击视频,了解更多
以往的图像分割提供两种方法,一种是交互式分割,可以分割任何类别的对象,但需要人工迭代细化掩码的指导;另一种是自动分割,可以分割预先定义的特定类别对象,例如猫或椅子,但需要大量的手动注释对象进行训练,例如需要成千上万个猫的分割示例。这两种方法都没有实现通用和全自动化的分割。
SAM是这两种方法的结合,通过零样本学习和预训练模型技术,模型通过正确的提示,包括点击、框选、文本等,可以完成对任意图像的分割任务。SAM的训练数据集SA-1B包含超过11亿的高质量、多元化的掩码,使用者无需收集细分数据为用例微调模型。
SAM还允许使用者在Web浏览器上实时交互地进行注释,在保持质量的前提下提升运行速度。具体来说,经过图形编码器、提示编码器和轻量级掩码解码器的处理,SAM可以在50毫秒内完成图形分割。
传统的卷积神经网络、生成对抗网络等计算机视觉技术,存在需专项训练才能有效识别、大量标签数据的训练成本较高、对模糊提示词的泛化理解能力不足等缺点,随着基础模型中的迁移学习、零样本学习、多模态学习技术不断升级,SAM创新性地引入这些技术,解决了传统计算机视觉领域的难题。
业内对此技术也持相对积极态度,认为NLP领域的prompt范式延展到计算机视觉领域,可能彻底改变该领域传统的预测思路。英伟达人工智能科学家Jim Fan还在twitter上表示,计算机视觉领域的“GPT-3时刻”已经到来。
对于SAM的应用方向,Meta表示将拓宽诸如标记照片、审核内容和用户推荐这类技术的使用,并已在官网展示了SAM在AR和生物识别领域的应用场景。未来,SAM也可能在农业、医疗、遥感等科学领域和涉及图像、视频编辑的泛娱乐内容创作领域得到应用。
SAM发布后,很快出现了结合多种基础能力的衍生模型。例如由前微软亚研院首席科学家沈向洋博士创办的IDEA研究院,基于SAM、自有Grounding DINO模型、Stable Diffusion技术,研发出Grounded SAM模型,可以直接通过文本描述实现图片的检测、分割、生成。
计算机视觉领域也正在迎来通用模型趋势,与SAM同期发布的还有国内智源研究院的SegGPT,可通过Prompt完成任意目标的分割。随着计算机视觉领域模型泛化能力的提升,有望推动通用的多模态AI系统发展,在工业制造、通用机器人、智能家居、游戏、虚拟现实等领域得到应用。
Hello!
我们在为更加闭环、更加高效的服务模式做准备
欢迎加入限定白名单
与我们一起探索